Umělá data jako nástroj bezpečného sdílení dat
Abstrakt:
S rostoucí potřebou sdílení dat napříč institucemi veřejné správy narážíme na limity ochrany osobních a citlivých údajů. Tradiční anonymizační techniky často nedokážou nabídnout dostatečnou rovnováhu mezi ochranou soukromí a užitečností dat. Příspěvek představuje přístup založený na využití umělých dat – dat, která neobsahují skutečné údaje, ale zachovávají statistické vlastnosti původních datových sad. Pouze data, u kterých zůstane zachována jejich logická struktura, lze efektivně využít pro další analýzy. Umělá data jsou vytvářena s využitím nástrojů umělé inteligence (AI), díky čemuž je možné spojit ochranu dat s jejich praktickým využitím. Popsány jsou konkrétní příklady, jak lze umělá data využít jako efektivní nástroj bezpečného sdílení dat a jak mohou podpořit transparentnost, otevřená data i rozhodování ve veřejné správě – bez rizika ohrožení citlivých údajů.
Klíčová slova: důvěrnost, ochrana dat, umělá data, statistika, otevřená data
Úvod
V digitální době roste poptávka po širší dostupnosti dat pro vědecký výzkum, analytickou činnost i řízení veřejné správy. Mikrodata, tedy podrobné údaje na úrovni jednotlivců, nabízejí unikátní pohled na socioekonomické procesy, ale jejich zveřejňování přináší riziko narušení důvěrnosti osobních údajů [1; 2]. Ochrana důvěrnosti proto představuje klíčovou výzvu: jak zajistit bezpečný přístup k datům a současně zachovat jejich analytickou hodnotu.
Tradiční anonymizační techniky čelí významným omezením, a proto se do popředí dostává moderní koncept syntetických dat, které v JN Analytics nazýváme „Umělá data“, jako inovativního nástroje ochrany důvěrnosti. Tento článek představí principy, metody i praktické zkušenosti s jejich využitím ve veřejné správě.
Statistická ochrana důvěrnosti (Statistical Disclosure Control, SDC) zahrnuje soubor metod, které minimalizují riziko identifikace jednotlivců nebo subjektů v publikovaných datech [1]. Rizika lze klasifikovat jako:
- Identifikační riziko (identity disclosure), kdy je možné přiřadit údaj ke konkrétnímu subjektu,
- Atribuční riziko (attribute disclosure), kdy je možné odvodit citlivou informaci o subjektu, aniž by byl přímo identifikován.
Současné právní předpisy, včetně GDPR a statistických kodexů, ukládají úřadům a veřejným institucím povinnost zajistit, aby zveřejňovaná data nebyla zneužitelná k identifikaci jednotlivců [2; 3]. K ochraně mikrodat existují různé strategie, jejichž volba závisí na charakteru dat, účelu zveřejnění a požadované úrovni ochrany důvěrnosti. Cílem vždy zůstává nalezení optimální rovnováhy mezi minimalizací rizika prozrazení a zachování maximální užitečnosti dat pro výzkum či řízení veřejné správy.
1. Tradiční metody ochrany a jejich limity
Historicky byly k ochraně důvěrnosti mikrodat využívány především dvě hlavní skupiny metod: neperturbační a perturbační [1; 2].
1.1. Neperturbační metody
Neperturbační metody se snaží omezit riziko prozrazení tím, že snižují detail zveřejňovaných dat, aniž by samotná data měnila. Typickými přístupy jsou:
- Potlačení buněk (cell suppression): odstranění určitých hodnot či kategorií, zejména těch, které by mohly vést k identifikaci individuálních respondentů.
- Globální překódování (global recoding): sloučení kategorií proměnných (např. věkové skupiny) do širších kategorií, čímž se snižuje možnost identifikace.
Výhodou neperturbačních metod je zachování původní struktury dat, ovšem na úkor podrobnosti a informační hodnoty [1].
1.2. Perturbační metody
Perturbační metody mění samotné hodnoty v datech, aby snížily riziko zpětné identifikace, přičemž se snaží minimalizovat dopad na statistickou užitečnost dat. Patří mezi ně například:
- Výměna záznamů (record swapping): nahrazení určitých údajů jinými záznamy se stejnými charakteristikami.
- Přidání náhodného šumu (adding random noise): mírná modifikace číselných hodnot přidáním náhodné odchylky.
- PRAM (Post Randomization Method): náhodná změna kategoriálních hodnot podle definovaných pravděpodobnostních pravidel.
Perturbační techniky umožňují zachovat většinu datových vztahů, ale přinášejí určitou míru informační ztráty, kterou je třeba pečlivě hodnotit [1; 4].
Omezení tradičních metod
Tradiční metody, ať už perturbativní či neperturbativní, čelí v současnosti několika výzvám:
- Zvyšující se schopnosti rekonstruovat data: Pokročilé techniky datové analýzy a strojového učení zvyšují riziko zpětné identifikace i z relativně agregovaných dat [5].
- Snížená užitečnost dat: Čím více se data chrání, tím více klesá jejich analytická hodnota, což může omezovat možnosti vědeckého a veřejného využití.
- Nemožnost efektivně chránit komplexní vícerozměrné struktury: U dat s bohatou vnitřní strukturou (např. domácnosti, hierarchie) jsou klasické metody často nedostatečné.
V reakci na tyto výzvy roste zájem o nové přístupy k ochraně mikrodat, především o syntetická data jako efektivní a bezpečnou alternativu.
2. Syntetická data jako moderní nástroj ochrany
2.1. Definice syntetických dat
Syntetická data představují inovativní přístup k ochraně důvěrnosti mikrodat, který reaguje na limity tradičních anonymizačních technik. Základní myšlenkou je vytvoření nového datového souboru, který statisticky věrně napodobuje původní dataset, ale neobsahuje skutečné individuální záznamy [1; 3].
Rozlišujeme dva hlavní typy syntetických dat:
- Plně syntetická data (fully synthetic data): všechna data jsou nově vygenerována modelem bez přímého využití skutečných hodnot [1].
- Částečně syntetická data (partially synthetic data): pouze citlivé části dat jsou nahrazeny syntetickými hodnotami, zatímco ostatní údaje zůstávají původní [Rubin, 1993].
V praxi, zejména v oblasti ochrany mikrodat ze sčítání lidu, se preferují plně syntetická data z důvodu maximalizace ochrany [2].
2.2. Výhody syntetických dat
Použití syntetických dat přináší několik zásadních výhod:
- Minimalizace rizika prozrazení: protože reálné údaje jsou nahrazeny simulovanými, riziko zpětné identifikace je zásadně sníženo.
- Zachování analytické hodnoty: při správné modelaci zachovávají syntetická data klíčové statistické vztahy v populaci, což umožňuje smysluplné analýzy [4].
- Flexibilita použití: syntetická data mohou být sdílena širšímu spektru uživatelů, včetně vědců, odborných pracovníků a veřejnosti, bez nutnosti přísných restrikcí.
- Možnost simulace hypotetických scénářů: díky generativní povaze lze vytvářet varianty dat pro testování různých scénářů a opatření.
2.3. Rizika a omezení
Přestože syntetická data přinášejí významné výhody, je třeba být si vědom určitých omezení:
- Modelové zkreslení: pokud model nezachytí dostatečně komplexně strukturu původních dat, může dojít k nepřesnostem [6].
- Možné zbytkové riziko: v případě nedostatečné variability syntetických dat by mohlo dojít k vytvoření záznamů velmi podobných skutečným respondentům.
- Omezená použitelnost pro některé analýzy: zejména pro analýzy extrémních hodnot nebo velmi specifických podskupin mohou být syntetická data méně vhodná.
Proto je klíčové pečlivě volit metodologii generování syntetických dat a vyhodnocovat jak míru ochrany, tak zachování užitečnosti dat [3; 4].
3. Tvorba syntetických mikrodat – metody
Generování syntetických mikrodat není náhodný proces, ale systematická činnost založená na sofistikovaných modelech, které zachycují strukturu, rozdělení a vzájemné vztahy původních dat [1; 2]. Volba správné metody je klíčová pro dosažení optimální rovnováhy mezi ochranou důvěrnosti a zachováním užitečnosti dat.
3.1. Proces tvorby syntetických dat
Obecně lze postup generování syntetických mikrodat rozdělit do následujících kroků:
- Analýza původního datasetu o Identifikace klíčových proměnných a vztahů mezi nimi (např. socio- demografické charakteristiky, domácnosti, hierarchické struktury).
- Výběr vhodných modelů o Pro každou proměnnou (nebo skupinu proměnných) je zvolen model, který nejlépe vystihuje její rozdělení a vztahy k ostatním proměnným.
- Trénování modelů na původních datech o Modely se „učí“ strukturu dat z původního datasetu.
- Generování syntetických záznamů o Na základě naučených modelů jsou vytvořeny nové „umělé“ záznamy. 5. Vyhodnocení kvality syntetických dat o Ověření zachování klíčových statistických charakteristik a minimalizace rizika identifikace.
3.2. Používané metody simulace
Pro tvorbu syntetických dat se dnes využívá široké spektrum nástrojů ze statistických metod, strojového učení a umělé inteligence [1; 2; 3].
Základní přístupy zahrnují:
- Regresní modely
- Využívají se zejména pro simulaci spojitých proměnných a kategorizovaných výstupů na základě prediktorů.
- Typickým příkladem je multinomická logistická regrese pro více kategoriální proměnné.
- Modely imputace dat
- Používají se postupy, které předpovídají hodnoty na základě známých atributů.
- Techniky jako „predictive mean matching“ či bayesovská imputace se adaptují pro generování syntetických záznamů.
- Klasifikační stromy a náhodné lesy
- Flexibilní nelineární metody vhodné pro komplexní závislosti mezi atributy.
- Náhodné lesy (Random Forests) navíc poskytují robustnost vůči overfittingu [7].
- Modely hlubokého učení (Deep Learning)
- Moderní pokročilé přístupy pro generování dat se opírají o hluboké neuronové sítě, např.:
- Generativní adversariální sítě (GAN): soutěživé modely „generátor–discriminator“ umožňující vytvářet realistické syntetické datové sady [8].
- Variační automatické kodéry (VAE): metody umožňující generovat syntetická data na základě pravděpodobnostního zakódování vstupních charakteristik.
- Velké jazykové modely (LLM): nové přístupy využívající velké neuronové sítě, původně trénované na textových datech, nyní adaptované i na strukturovaná mikrodata.
- Moderní pokročilé přístupy pro generování dat se opírají o hluboké neuronové sítě, např.:
4. Praktické zkušenosti a příklady využití
Implementace syntetických dat ve veřejné správě a oficiální statistice již probíhá v řadě zemí a institucí. Zkušenosti ukazují, že správně navržená syntetická data umožňují bezpečné sdílení informací, aniž by byla narušena důvěrnost jednotlivců [1; 3].
4.1. Česká republika – případová studie
V České republice se problematikou diseminace syntetických mikrodat zabývá Český statistický úřad (ČSÚ), zejména v souvislosti s mikrodaty ze Sčítání lidu, domů a bytů 2011.
Výzkum zaměřený na ochranu důvěrnosti mikrodat ze SLDB 2011 ukázal, že klasické anonymizační techniky (např. agregace, potlačení) nejsou dostačující při požadavku na vysokou míru využitelnosti dat pro vědecké účely [2].
Výsledky výzkumu [2] potvrdily, že simulace plně syntetických mikrodat, realizovaná pomocí moderních statistických a machine learning metod (logistická regrese, random forests, XGBoost), představuje nejefektivnější řešení z hlediska ochrany důvěrnosti při zachování analytické hodnoty dat.
ČSÚ využívá pro syntézu dat přístup, který kombinuje:
- replikaci struktury domácností,
- modelování kategoriálních a spojitých proměnných,
- vyhodnocování informační ztráty a užitečnosti nových datových souborů.
4.2. Mezinárodní praxe
Také v zahraničí roste využívání syntetických dat v rámci oficiální statistiky:
- Spojené státy americké (US Census Bureau): V rámci projektů jako American Community Survey (ACS) byly vyvíjeny plně syntetické soubory pro veřejné použití (Public Use Files), aby bylo možné zpřístupnit detaily demografických a ekonomických dat bez rizika identifikace jednotlivců [1]. - Spojené království (ONS): Office for National Statistics pilotně testuje syntetická data pro výzkumné účely, především v oblasti socioekonomických údajů a zaměstnanosti.
- Eurostat: Podporuje výzkum a experimentální projekty zaměřené na využití syntetických dat pro evropské strukturální průzkumy, včetně projektů zaměřených na vývoj vhodných standardů kvality a validace syntetických souborů.
- Rakousko (Statistik Austria): Statistik Austria implementuje syntetická data pro interní účely a výzkumné spolupráce v chráněných prostředích.
Tyto příklady ukazují, že syntetická data se stávají běžným nástrojem umožňujícím vyvážit potřebu otevřenosti dat a povinnost chránit důvěrnost informací. 5.
Závěr
S rostoucím významem datového řízení ve veřejné správě a ve vědeckém výzkumu se zvyšuje i tlak na dostupnost podrobných mikrodat. Současně však zůstává prioritou ochrana důvěrnosti jednotlivců, na což reaguje obor statistické ochrany důvěrnosti mikrodat (SDC) [1; 3].
Tradiční anonymizační techniky, byť stále užitečné, čelí novým výzvám spojeným s rozvojem datových analytických nástrojů a strojového učení. Tyto technologie usnadňují zpětnou identifikaci jednotlivců i z agregovaných údajů, čímž narůstá riziko prozrazení [2].
Umělá data se proto ukazují jako moderní a perspektivní nástroj, který umožňuje:
- podstatně snížit riziko narušení důvěrnosti, • zachovat vysokou analytickou hodnotu dat,
- flexibilně přizpůsobit rozsah a strukturu dat specifickým potřebám uživatelů,
- rozšířit přístup k datům pro vědeckou a veřejnou sféru bez nutnosti přísných bezpečnostních opatření.
Výzkumné i praktické projekty realizované v České republice a zahraničí potvrzují, že při správné volbě metod tvorby syntetických mikrodat – od tradičních statistických modelů až po nejmodernější nástroje hlubokého učení (GAN, VAE, LLM) – lze dosáhnout vysoké úrovně ochrany i užitečnosti současně [2; 4].
Do budoucna bude klíčové:
- standardizovat postupy hodnocení kvality syntetických dat,
- vytvářet robustní validační rámce, • zajistit transparentní komunikaci směrem k uživatelům dat,
- rozvíjet vzdělávání pracovníků veřejné správy v oblasti práce se syntetickými daty.
Syntetická data, tak otevírají cestu k bezpečnější a zároveň otevřenější správě dat v moderní společnosti.
Použitá literatura
- Hundepool, A. et al. (2012). Statistical Disclosure Control. Wiley.
- Novák, J. (2023). Modely statistické ochrany důvěrnosti mikrodat v populačních censech. Disertační práce, VŠE Praha.
- UNECE (2022). Synthetic Data for Official Statistics: A Starter Guide.
- Templ, M. (2017). Simulation of Synthetic Data for Statistical Disclosure Control.
- Domingo-Ferrer, J., Torra, V. (2001). A Quantitative Comparison of Disclosure Control Methods.
- Novák, J. (2022). Statistická ochrana důvěrnosti SLDB 2011.
- Breiman, L. (2001). Random Forests. Machine Learning.
- Goodfellow, I. et al. (2014). Generative Adversarial Nets.